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摘 要 : 为 提高 各 行业 领域 未 登录 词 识别 效果 ， 提 出 一 种 基于 扩展 规则 与 统计 特征 的 未 登录 词 识别 方法 。 分 析 行 业 领 
域 未 登录 词 构 词 特点 ， 制 定 扩展 规则 ， 根 据 扩 展 规则 对 分 词 项 进行 扩展 得 到 复合 词 ， 通 过 词 频 、 互 信息 、 邻 接 业 等 统 
计 特 征 判 别 复合 词 是 否 为 未 登录 词 ， 若 为 未 登录 词 ， 则 对 其 继续 扩展 和 识别 。6 个 行业 领域 和 通用 领域 未 登录 词 识别 
实验 结果 表明 ， 提 出 方法 取得 了 较 好 的 未 登录 词 识别 效果 ， 具 有 较 好 的 移植 性 。 
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Unregistered word recognition based on expansion rules and statistical features 
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Abstract: In order to improve unregistered word recognition effect in various fields, this paper proposed an unregistered word 
recognition method based on expansion rules and statistical features. It analyzed word formation features of unregistered words 
in various field, formulated expansion rules, extended word segmentations to get compound words according to expansion rules, 
then determined whether compound words were unregistered words through statistical features such as word frequency, mutual 
information and branch entropy, if the compound word was an unregistered word, it would continue to be expanded and 
recognized. The results of unregistered word recognition experiments in six fields and general field show that the method based 
on expansion rules and statistical features achieves better recognition effect of unregistered words and has better portability. 
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0 引言 1 ”相关 研究 
在 英语 等 西方 语言 书面 表达 中 ， 句 与 句 之 间 以 标点 符号 为 未 登录 词 指 未 被 分 词 词典 收录 的 词语 以 及 随 着 时 代 发 展 而 


分 隔 符 ， 词 与 词 之 间 以 空格 为 分 隔 符 ， 计 算 机 处 理 这 些 语言 文 现 出 来 的 新 词 。 其 识别 方法 可 分 为 基于 规则 的 方法 、 基 于 统 
本 时 ， 通 过 标点 符号 可 以 识别 句子 ， 通 过 空格 可 以 识别 词 。 在 。” 计 的 方法 、 规 则 与 统计 相 结 合 的 方法 。 
汉语 书面 表达 中 ， 虽 然 也 以 标点 符号 作为 句子 分 隔 符 ， 但 是 词 基于 规则 的 方法 通过 构 词 模式 、 词 性 规则 、 成 词 概率 等 识 
与 词 之 间 却 无 明显 分 隔 符 ， 字 与 字 紧 密 相连 ， 任 何 相 邻 的 字 都 。 别 未 登录 词 。 郑 家 恒 等 人 由 研究 汉语 构词法 ， 建 立 构 词 规 则 识 
可 能 组 成 词 ， 词 的 长 度 也 没有 限制 。 因 此 ， 计 算 机 处 理 中 文 文 ” 别 网 络 新 词 , 取得 了 91.2% 的 准确 率 。 崔 世 起 等 人 馈 通 过 语料库 
本 时 ， 中 文 分 词 便 成 为 了 一 项 非常 重要 的 基础 工作 。 目 前 投入 建立 垃圾 词典 和 词 级 词典 ,结合 词 性 规则 和 独立 成 词 概 率 检测 
使 用 的 各 大 分 词 器 在 通用 领域 取得 了 较 高 的 分 词 准 确 率 ， 但 是 。 网 络 新 词 ， 也 取得 了 较 好 的 识别 效果 。 基 于 规则 的 方法 识别 精 
其 它 行业 领域 分 词 效果 并 不 理想 。 原 于 ， 各 行业 领域 未 登 ” 度 较 高 ， 但 规则 通常 来 源 于 特定 领域 ， 移 植 性 较 差 ， 而 且 规则 
录 词 通常 为 长 度 更 长 语义 更 完整 的 复合 词 以 及 含有 特殊 字符 的 ”也 不 能 概括 所 有 的 构 词 现象 。 
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合 词 ， 识 别 难度 大 。 各 行业 领域 未 登录 词 识别 准确 率 不 高 ， 基于 统计 的 方法 认为 词 作为 一 个 独立 的 整体 ， 应 具备 稳定 
就 难以 提高 各 行业 领域 文本 分 词 准 确 率 。 因 此 ， 本 文 研究 行业 的 


内 部 结构 和 丰富 的 上 下 文 环境 ， 通 常 以 词 频 、 互 信息 、 邻 接 
领域 未 登录 词 识别 。 焙 等 统计 特征 识别 未 登录 词 。 韩 艳 等 人 后 以 互信 息 提取 二 元 组 ， 
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录用 稿 曾 洗 词 识别 
以 邻接 人 判 断 二 元 组 边界 并 对 二 不 断 扩 持 » 识别 长 度 更 长 语义 职位 月 新: 6000-12000 元 /月 于 作 地 点 : 北京 -3 区 
本 pa 日 期 : 2017-10-10 工作 1 : 职 
更 完整 的 未 登录 词 。 杨 阳 等 人 的 综 合 考 虑 词 频 、 互 信息 、 邻 接 炳 工作 经 验 : 无 经 验 最 低 学 历 ， 本 科 
ee . ee 招聘 人 数 ，10 人 职位 类 别 : 算法 工程 师 
等 统计 特征 ， 提 取 长 度 不 超过 6 的 字符 串 ， 选 取 统 计 特征 值 均 i 
亲信 的 之 和 链 电 六 未 登录 词 ”、 本 立 圳 特 人 国 涌 过 石 倍 自 .参与 大 数据 或 云 架构 或 机 器 学 习 相关 的 开发 ; 
大 于 阔 值 的 字符 串 为 未 登录 词 。 李 文 坤 等 全 通过 互信 息 从 分 ?参与 天 革 学 习 有 人工 因 能 的 六 计 和 开发 
词 散 串 中 筛选 具有 稳定 结构 的 二 元 组 ， 再 对 二 元 组 进行 扩展 ， ER 
ER 、 a . 统 招 本 科 及 以 上 学 历 ， 数 学 、 计 算 机 科学 、 通 信 工 程 等 相关 专业 
以 邻接 焙 判 断 词 边 界 ， 识 别 长 度 为 2-4 的 未 登录 词 。 天 荣 朋 等 。。。 2 康 秋 CCx/azz 等 开发 语言 、 熟 孙 常用 算法 和 数据 结构 ; 
ee 的 3. 熟 悉 机 器 学 习 、 深 度 学 习 ， 使 用 过 相关 开源 框架 者 优先 ; 
人 [9 以 改进 互信 息 获取 具有 稳定 结构 的 2-gram 和 3-gram, 通过 福利 待遇 : 
1、 基 本 工资 :五 险 一 金 + 餐 补 + 法 定 假日 + 带 薪 年 假 + 节日 福利 + 生日 福利 + 年 度 旅游 。 
计算 2-gram 的 邻接 炉 以 及 对 3-gram 进行 扩展 识别 未 登录 词 。 A 
段 字 锋 等 人 口 通过 词 频 、 文 档 频 率 、 平 均 词 频 筛选 一定 范围 内 北京 市 昌平 区 北 七 家 镇 未 来 科技 城南 区 中 国电 子 信息 安全 技术 研发 基地 B 栋 5 层 
的 候选 项 得 到 未 登录 词 。Pang 等 人 [分 析 词 在 文档 间 、 文 档 内 、 图 1 招聘 职位 
段落 内 的 分 布 特征 识别 未 登录 词 。Zhang 等 人 四 以 K-means 方 表 1 职位 语料库 
法 对 微 博 聚 类 ， 从 每 一 类 微 博 中 提取 词 频 大 于 阔 值 的 候选 串 ， 行业 领域 职位 个 数 
通过 邻接 度 判 别 候选 串 的 子 串 是 否 为 未 登录 词 。 基 于 统计 的 方 IT 互联 网 83753 
法 不 依赖 于 规则 ， 移 植 性 较 好 ， 但 计算 量 大 ， 且 由 于 没有 规则 财务 /人 力 / 行 政 40189 
的 约束 ， 结 果 中 含有 大 量 非 词 字 符 串 。 肖 售 /客服 /市 场 83401 
为 克服 规则 方法 和 统计 方法 的 缺点 ， 学 者 们 更 倾向 于 采用 项 目 /质量 /管理 32788 
规则 与 统计 相 结 合 的 方法 ， 提 高 未 登录 词 识别 效果 。Liu 等 人 房产 /建筑 /物业 35093 
[0 通过 统计 方法 、 领 域 词典 、 词 性 规则 、 前 后 级 规则 等 识别 金融 39376 
未 登录 词 ， 霍 帅 等 人 00 结 合 词 频 和 词法 规则 识别 未 登录 词 ; 表 2.6 个 行业 领域 未 登录 词 统计 
周 超 等 人 093 综 合 词 频 、 词 性 规则 和 邻接 变化 数 识 别 未 登录 行业 领域 职位 个 数 未 登录 词 个 数 
词 ; 杜 丽 萍 等 人 (3 以 改进 互信 息 筛 选 二 元 组 并 对 其 扩展 ， 通 IT 互联 网 50 346 
过 词 频 规则 和 停 用 词 规则 过 滤 得 到 未 登录 词 。 财务 /人 力 / 行 政 50 319 
大 多 数 研究 以 新 闻 、 微 博 为 语 料 ， 研 究 通 用 领域 未 登录 词 销售 /客服 /市 场 50 325 
识别 方法 ， 识 别 对 象 主要 是 长 度 为 2-4 的 中 文 未 登录 词 ， 缺 乏 项 目 /质量 /管理 50 275 
对 长 度 更 长 语义 更 完整 的 复合 词 的 识别 研究 。 此 外 ， 对 中 文 文 房产 /建筑 /物业 50 302 
本 中 含 英文 的 特殊 未 登录 词 识 别 研究 相对 较 少 。 金融 50 342 
本 文 研 究 行业 领域 未 登录 词 识 别 ， 提 出 一 种 基于 扩展 规则 表 2 中 未 登录 词 可 分 为 中 文 未 登录 词 和 英文 未 登录 词 。 其 


与 统计 特征 的 未 登录 词 识 别 方法 。 以 6 个 行业 领域 招聘 职位 为 中， 中 文 未 登录 词 约 占 90%， 主 要 为 人 名 、 地 名 、 机 构 名 、 行 
语 料 ， 分 析 行 业 领 域 未 登录 词 构 词 特点 ， 建 立 扩展 规则 ， 根 据 ” 业 术 语 。 英 文 未 登录 词 约 占 10%， 主 要 为 表示 工作 技能 的 行业 
扩展 规则 对 分 词 项 扩展 得 到 复合 词 ， 综 合 词 频 、 互 信息 、 令 接 术语， 如 “c++”、“j2se”。 对 中 文 未 登录 词 和 英文 未 登录 词 
料 统计 特征 判别 复合 词 是 否 为 未 登录 词 ， 若 为 未 登录 词 ， 则 ”的 构 词 特 点 分 析 ， 如 表 3、4 所 示 。 


继续 扩展 和 识别 。 表 3 中 文 未 登录 词 构 词 特点 
2 ， 行业 领域 未 登录 词 识别 0 
1+1 餐 补 ， 入 职 ， 电 销 ， 调 优 ， 直 招 10.00 
通过 网 络 聆 虫 从 招聘 网 站 疏 取 招聘 职位 ,建立 职位 语料库 ， 1+2 微 商 城 ， 云 产品 ， 大 数据 ， 高 并 发 9.00 
招聘 职位 如 图 1 所 示 ， 职 位 语料库 如 表 1 所 示 。 职 位 通常 由 两 2+1 工龄 奖 ， 通 讯 费 ， 招 商 部 ， 季 度 奖 10.00 
部 分 组 成 : 结构 化 数据 和 非 结 构 化 数据 。 结 构 化 数据 包括 职位 242 深度 学 习 ， 淘 宝 客服 ， 市 场 营销 35.00 
月 薪 、 工 作 地 点 、 发 布 时 间 等 字段 及 相应 内 容 ， 这 部 分 内 容 通 2+3 通信 运营 商 ， 注 册 会 计 师 ， 办 公 自 动 化 15.00 
常 由 若干 字 描 述 。 非 结构 化 数据 包括 岗位 职责 、 任 职 要 求 、 福 342 新 媒体 运营 ， 房 地 产 开发 ， 节 假日 福利 8.00 
利 待遇 等 。 职 位 信息 主要 集中 在 非 结构 化 数据 ， 因 此 在 本 文 后 242142 然 语言 处 理 ， 语 音信 号 处 理 10.00 
续 工 作 中 ， 关 于 职位 的 处 理 指 的 是 对 其 非 结构 化 数据 的 处 理 。 其 它 计算 机 科学 与 技术 ， 电 子 与 通信 工程 3.00 
从 每 个 行业 领域 各 提取 50 个 职位 ， 使 用 分 词 器 HanLP 进 表 4 英文 未 登录 词 构 词 特点 
行 分 词 。 造 成 分 词 错误 的 主要 因素 是 歧义 和 未 登录 词 ， 因 此 ， 特点 实例 比例 (%) 
排除 分 词 结果 中 由 歧义 造成 的 分 词 错误 字段 ， 剩 下 的 分 词 错误 英文 + 中 文 c 语言 ，ip 协议 10.00 
字段 便 可 认为 是 未 登录 词 。6 个 行业 领域 未 登录 词 统计 如 表 2 英文 + 数字 html5, spring3, stm32 50.00 


所 示 。 
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英文 + 特殊 字符 C++，C#,，notepad+++ 5.00 
英文 + 数字 + 英文 j2se, j2ee, p2p 10.00 
英文 + 特殊 字符 + 英文 asp.net, object-c, b/s 20.00 
英文 + 特殊 字符 + 数字 cet-4, cet-6 5.00 


表 3 可 知 ， 对 于 各 行业 领域 中 文 未 登录 词 ， 其 一 般 是 
2-3 个 中 文 词组 成 的 复合 词 。 由 表 4 可 知 ， 英 文 未 登录 词 通常 
也 是 由 2-3 部 分 组 成 的 复合 词 ， 但 它 的 构 词 特点 比 中 文 词 更 灵 
活 。 中 文 词 通常 只 和 中 文 词组 成 复合 词 ， 而 英文 词 既 可 以 与 中 
文 词组 成 复合 词 ， 如 “c 语言 ”， 也 可 以 和 数字 组 成 复合 词 ， 如 
“html5 ”, 甚至 还 可 以 和 特殊 字符 组 成 复合 词 , 如 “c#”。HanLP 
因 未 能 识别 这 些 未 登录 词 ， 将 它们 错误 切 分 为 若干 个 分 词 项 。 
例如 ， 将 “深度 学 习 ” 错 误 切 分 为 “深度 /学 习 ”， 将 “j2ee” 
错误 切 分 为 “j/2/ee”。 因 此 ， 若 能 根据 未 登录 词 构 词 特点 ， 将 
分 词 结果 中 的 分 词 项 按照 一 定 规则 进行 重组 ， 再 通过 某 种 策略 
过 滤 ， 便 可 识别 各 行业 领域 未 登录 词 。 


3 ”基于 扩展 规则 与 统计 特征 的 未 登录 词 识别 


3.1 扩展 规则 

在 分 析 行 业 领域 未 登录 词 构 词 特点 的 基础 上 ， 提 出 基于 扩 
展 规 则 与 统计 特征 的 未 登录 词 识别 方法 。 方 法 中 的 扩展 指 : 
HanLP 分 词 后 ， 同 一 句 分 词 结果 中 当前 词 与 后 一 个 词组 成 复合 
词 。 扩 展 规则 具体 如 下 : 


Rulel 当前 词 为 停 用 词 或 者 既 不 是 中 文 词 也 不 是 英文 词 ， 
则 当前 词 不 扩展 。 


Rule2 当前 词 为 中 文 词 且 不 是 
为 中 文 词 且 不 是 停 用 词 ， 则 当前 词 扩 

Rule3 ”当前 词 为 英文 词 且 不 是 
是 停 用 词 ， 则 当前 词 扩展 。 
Rule4 扩展 次 数 大 于 预 设 最 大 扩展 次 数 ， 不 再 扩展 。 
上 述 扩展 规则 源 于 对 行业 领域 未 登录 词 构 词 特点 的 总 结 。 
中 文 词 通常 只 和 中 文 词组 成 复合 词 , 而 英文 词 则 可 以 与 中 文 词 、 
数字 、 特 殊 字 符 等 组 成 有 意义 的 复合 词 。 因 此 ， 上 述 扩展 规则 
既 可 筛选 符合 行业 领域 未 登录 词 构 词 特点 的 复合 词 ， 又 可 去 除 
一 些 无 意义 的 组 合 ， 提 高 未 登录 词 识别 效果 。 

扩展 规则 需要 使 用 停 用 词 词典 ， 在 自然 语言 处 理 中 ， 停 用 
词 指 只 在 语句 中 充当 某 种 成 分 而 对 语义 表达 无 任何 贡献 的 字 词 ， 
这 些 字 词 通常 不 与 其 它 字 词 构成 有 意义 的 复合 词 , 比如 “了 ”、 


dn 


se 


j 词 ， 如 果 后 一 个 词 也 


型 


dat 
mn 


词 ， 如 果 后 一 个 词 不 


[2® 


“的 ”、“ 不 ”。 互 联网 上 存在 各 种 版 本 的 停 用 词 词典 ， 这 些 
停 用 词 词典 通常 只 收录 通用 领域 的 停 用 词 。 而 本 文 研究 涉及 各 


行业 领域 ， 为 提高 各 行业 领域 未 登录 词 识别 效果 ， 对 职位 语 料 
库 进行 分 词 并 统计 词 频 ， 从 中 选取 词 频 大 于 1000 且 与 其 它 词 
组 成 复合 词 概率 低 的 词 作为 停 用 词 ， 部 分 停 用 词 及 其 词 频 如 表 
5 所 示 。 再 结合 通用 领域 停 用 词 词典 ， 建 立 一 部 含 1900 个 停 用 


词 的 行业 领域 停 用 词 词 


词 及 其 词 频 


一 由 


停 用 词 词 频 停 用 词 词 频 


词 频 


il 停 用 词 
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曾 浩 ， 等 : AN 


相关 246481 熟练 80161 参与 57928 
以 上 207463 及 时 74945 安排 54905 
具有 189815 使 72890 各 项 54370 
进行 185871 了 解 70874 各 种 54130 
熟悉 176847 其 他 69804 做 好 52225 
完成 168965 能 够 68439 建立 45268 
提供 142157 以 及 63221 各 类 43410 
具备 126778 我 们 61132 善于 35422 


3.2 ”统计 特征 

本 文 以 词 频 、 互 信息 、 邻 接 灶 作 为 未 登录 词 识别 的 统计 特 
征 。 如 果 扩 展 所 得 的 复合 词 的 统计 特征 值 均 大 于 阐 值 ， 则 判定 
为 未 登录 词 ， 否 则 不 是 未 登录 词 。 

1) 词 频 

未 登录 词 作 为 词 , 首先 应 具备 一 定 的 出 现 次 数 。 记 f(w) 表 
示 复 合 词 w 在 语料库 中 出 现 的 次 数 ，f(w) 越 大 , 复合 词 w 成 为 
未 登录 词 的 可 能 性 越 大 。 


2) 互信 息 
未 登录 词 作为 词 ， 应 具备 稳定 的 内 部 结构 。 信 息 论 中 ， 互 
信息 (mutual information, MI 用 于 衡量 两 个 信号 的 关联 程度 。 因 


此 ， 互 信息 也 可 衡量 两 个 词 结合 的 紧密 程度 。 互 信息 越 大 ， 结 
合 得 越 紧 密 ， 相 邻 词组 成 的 复合 词 成 为 未 登录 词 的 概率 越 大 。 
互信 息 计算 公式 如 式 (1) ~ (4) 所 示 。 


MiGw) = pee) GD) 
p(wW) -2 (2) 
p(X) -人 (3) 
p= (4) 


其 中 : w 表示 由 词 x* 和 词 y 组 成 的 复合 词 ，MI(w) 表示 w 的 互 
信息 ，p(w) 、p(x) 、p(y) 分 别 表示 w、x、y 在 语料库 中 出 
现 的 概率 ，f(w) 、f(x)、f(y) 分 别 表示 w、x、3 在 语料库 
中 的 词 频 ，NN 表示 语料库 中 的 总 词 数 。 

式 (D 只 适用 于 计算 由 两 个 词组 成 的 复合 词 的 互信 息 ， 为 
计算 由 多 个 词组 成 的 复合 词 的 互信 息 , 对 式 (D 进行 改进 , 改进 
后 的 互信 息 如 式 (5) 所 示 。 


MMI(W) -logC_PoD ) (5) 


Avg (wi...w) 


n—l 
1 
Avg(Wwi...wWn) = 二 2 PCOwLW JP WwW) (6) 
其 中 : Wi，...，W，...，W 为 组 成 复合 词 w 的 nn 个 词 ， 
MMI(w) 为 改进 后 复合 词 w 的 互信 息 ，Avg8(wiw2.…W) 为 组 成 
复合 词 w 的 不 同 组 合 的 平均 概率 。 例 如 ， 对 于 由 “自然 ” 
“语言 ”“ 处 理 ” 三 个 词组 成 的 复合 词 “ 自 然 语言 处 理 ”， 组 
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成 它 的 不 同 组 合 的 平均 概率 为 ，P 自 然 )P( 语 言 处 理 ) 和 


P 


一 


) 邻接 类 
未 登录 词 


作为 词 ， 


(branch entropy, BE) 是 衡 


征 ， 利 用 信 
确定 性 5。 信 


居 论 中 


» 


息 (information entropy, I 下) 计算 


自然 语言 )P( 处 理 ) 均 值 。 


应 具备 丰富 的 上 下 文 环境 。 邻 接 粮 
in 
字符 串 上 下 文 的 不 


言 息 灶 


于 表示 随机 变量 的 不 确定 性 均 


值 ， 随 机 变量 的 信息 灶 越 大 ， 


忆 的 不 确定 性 就 越 大 。 假 设 A 是 


一 个 离散 型 随机 变量 ， 取 值 空 


分 布 为 P(a)= P(A=a)， 


1E(A)=-D pl og pla) 


邻接 焙 分 为 左 邻 接 入 (left branch entropy, LBE) 和 右 邻 
(right branch entropy, RBE)。 如 果 字 符 串 的 左 邻接 粹 越 大 ， 


zs 间 为 B， 当 4 取 值 ae B 时 ,概率 
随机 变量 4 的 信息 灶 如 式 (7〉 所 示 。 


(7) 


aeB 


文 环境 越 丰富 ， 那 么 


已 的 左边 界 就 可 


以 确定 ， 如 果 字 符 串 的 右 


邻接 炉 越 大 , 其 下 文 环境 越 丰 富 ,那么 它 的 右边 界 就 可 以 确定 ; 


如 果 字 符 串 的 左 邻接 米 和 右 邻 接 炉 均 很 大 ， 
它 单独 成 词 概率 就 越 大 。 


定 ， 那 么 


其 左右 边界 均 可 确 


本 文中 ， 
后 一 个 词 ， 所 有 左 邻 
接 集 合 ， 所 有 不 同 的 左 
接 构成 右 邻 接 类 别 。 


LS(W)={D,Dys DD)} 


RS(w) 三 {Ri, RD 
(8) (9) 所 示 。 


n 
LBE(W) — > Tlog™ 
n n 

el 


RBE(w) = -> ,Tog 
m 


合 词 的 左 邻接 指 它 的 前 一 个 词 ， 右 邻接 指 它 的 
变 构 成 左 邻 接 集合 ， 
邻接 构成 左 邻接 类 别 ， 所 有 不 同 的 右 邻 


所 有 右 邻 接 构 成 右 邻 


假设 复合 词 w 的 左 邻 接 类 别 为 
右 邻 接 类 别 为 
Rn}， 其 左 邻 接 烂 和 石 邻接 炉 分 别 如 式 


(8) 


m 


(9) 


i=] 


式 (8) 中 ，ZLBE(w) 表示 w 的 左 邻 接 炉 ，n 表示 左 邻 接 集合 的 大 


小 ，nm 表 示 左 邻接 集合 中 左 邻 接 5 出现 的 次 数 。 式 (9) 中 ， 
RBE (w) 表示 w 的 右 邻 接 焙 ，m 表示 右 邻 接 集合 的 大 小 ，m; 表 
示 右 邻接 集合 中 右 邻 接 Ri 出 现 的 次 数 。 
3.3 未 登录 词 识别 流程 

基于 扩展 规则 与 统计 特征 的 未 登录 词 识别 流程 如 图 2 所 示 。 
具体 步骤 如 下 : 

a) 设 置 最 大 扩展 次 数 、 词 频 闵 值 、 互 信息 阐 值 、 左 邻接 灶 


闷 值 、 右 邻接 炉 闵 值 。 


b) 将 语料库 按 中 文 标点 符号 切 分 为 短 句 。 


9 使 用 HanLP 对 短 名 分词， 遍历 分 词 项 ， 根 据 扩 展 规则 判 
断 当 前 词 是 否 可 扩展 .如果 当 前 词 不 可 扩展 , 则 跳 过 此 当前 词 ， 


则 添加 到 未 登录 词 集合 


并 将 后 一 个 分 词 项 作为 当 靖 
扩展 ， 计 算 扩展 所 得 的 复合 
,并 对 此 复合 


杀 词 进行 扩展 和 识别 。 如 果 当 前 词 可 
词 的 统计 特征 值 ， 若 均 大 于 阔 值 ， 
词 继续 扩展 和 识别 ; 否则， 


舍弃 该 复合 词 
a 


让 


uy 


4 


4 


词 和 三 
邻接 米 值 和 右 邻 接 焙 阔 值 均 为 1 
登录 词 ， 本 文 方法 将 各 统计 特征 阔 值 设置 较 低 ， 
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将 后 


个 分 词 项 作为 当前 词 进行 扩展 和 识别 。 


人 
[这 


算法 结束 ， 输 出 未 登录 词 


语料库 切 分 为 短 句 


对 短 名 分词 并 遍 


和 2 基于 


~ 
时 


展 规 


六 


实验 及 分 析 


历 分 词 项 


添加 到 未 登录 词 


则 与 统计 特征 的 未 登录 词 识别 流程 


.1 实验 方法 及 评价 标准 


本 文 方法 参数 设置 : 
词 。 词 频 闵 值 为 10; 互信 息 阔 值 为 3; 


个 词 


组 成 的 复合 


更 多 未 登录 词 。 


息 、 左 邻接 烂 、 右 邻接 业 均 大 于 
长 度 更 长 语义 更 完整 的 复合 词 ， 为 了 与 本 文 方 
[4 方法 稍 加 修改 ， 不 再 提取 长 度 为 2~6 的 字符 
相 邻 分 词 项 组 成 的 二 元 组 和 三 元 组 ， 若 二 元 组 
息 、 左 邻接 业 、 


本 文 方法 是 识别 
法 对 比 ， 对 文献 
串 ， 而 是 提取 
和 三 元 组 的 词 


文献 [4 提取 长 度 为 


最 大 扩展 次 数 为 2， 即 只 识别 


两 个 


。 考 虑 到 语料库 中 低频 未 


可 能 识别 出 


2~6 的 字符 串 ， 若 字符 串 的 词 频 、 互 信 


闵 值 ， 则 判定 为 未 登录 词 。 而 


频 、 互 信息 


贝 


于 闵 值 的 二 字 组 合 ， 然 


则 判定 为 未 登录 词 .此 乡 


文献 [5] 在 分 


[= 


力 


词 的 基础 上 从 散 串 中 提取 互信 
后 通过 左 邻 接 烂 和 右 邻 接 对 二 字 组 合 
进行 扩展 ， 主 要 识别 长 度 为 2-4 的 未 登录 词 。 而 本 文 方法 是 识 


邻接 粒 均 大 于 姜 值 ， 
,各 参数 值 均 与 本 文 方法 参数 值 相同 。 
息 和 词 频 均 大 


长度 更 长 语义 更 完整 


献 


的 复合 


词 ， 为 了 与 本 文 方法 对 比 ， 对 文 


TS] 方法 稍 加 修改 ， 不 再 从 散 串 中 提取 二 字 组 合 ， 


而 是 提取 由 


相 邻 两 个 分 词 项 组 成 的 二 元 组 ， 后 续 的 扩展 和 识别 保持 和 文献 


[5] 一 样 。 此 外 ， 各 参数 值 均 与 本 文 方法 参数 值 相同 。 
以 准确 率 ( P)、 召 回 率 (R) 和 下 值 ( F ) 作 为 未 登录 词 识 别 
结果 的 评价 标准 ， 如 式 (10)~ (12) 。 
lcna 
PR 夺 x100% (10) 
Id 
3 cnn iow (11) 
2 (12) 
P+R 


V1 
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国 
加 
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其 中 : C 表示 方法 识别 出 的 未 登录 词 集合 ，D 表示 人 工 标 注 的 
未 登录 词 集合 


4.2 


了 较 好 效果 ， 其 准 
文献 [4,5] 均 以 微 博 为 语料库 ， 研 究 通 | 
了 词 频 、 互 信息 、 邻 接 粹 等 统计 特 和 
]， 示 登录 词 识别 结果 中 包含 大 量 统计 


然 充分 利用 
规则 的 运 | 


o 


行业 领域 未 登录 词 识别 对 比 


运用 文献 [4,5]、 本 文 方法 , 识别 表 2 中 6 个 行业 领域 各 50 
个 职位 中 未 登录 词 ， 实 验 结果 如 表 6~8 所 示 。 


表 6 行业 领域 未 登录 词 识 别 准确 率 (%) 对 比 
行业 领域 文献 [4] 文献 [5] 本 文 方法 
IT 互联 网 57.14 54.38 60.26 
财务 /人 力 / 行 政 56.41 55.28 58.36 
销售 /客服 /市 场 54.55 51.92 60.66 
项 目 /质量 /管理 51.11 51.33 59.74 
房产 /建筑 /物业 42.17 42.98 52.08 
金融 53.14 53.50 54.91 
表 7 行业 领域 未 登录 词 识别 召回 率 (%) 对 比 


文献 
行业 领域 文献 [5] 本 文 方法 
[4 
IT 互联 网 32.37 34.10 52.60 
财务 /人 力 / 行 政 27.59 27.90 51.41 
销售 /客服 /市 场 31.38 33.23 56.92 
项 目 /质量 /高 级 25.10 28.00 51.27 
房产 /建筑 /物业 32.12 34.44 53.97 
金融 37.13 38.01 60.53 
表 8 行业 领域 未 登录 词 识别 F 值 (%) 对 比 
行业 领域 文献 [4] 文献 [5] 本 文 方法 
IT 互联 网 41.33 42.00 56.17 
财务 /人 力 / 行 政 37.05 37.10 54.67 
销售 /客服 /市 场 39.84 41.00 58.73 
项 目 /质量 /高 级 33.66 36.24 55.19 
房产 /建筑 /物业 36.47 38.24 53.01 
金融 43.72 44.45 57.58 
实验 结果 表明 ， 本 文 方法 在 识别 行业 领域 未 登录 词 中 取得 


E 确 率 、 召 忆 深 、 王 值 均 高 于 另外 两 种 方法 。 


领域 未 登录 词 识 别 ， 虽 


E， 但 是 缺少 对 


| 特征 值 大 于 阐 


值 的 非 词 字符 串 。 例 如 ， 文 献 [4] 方 法 在 识别 IT 互联 网 行业 未 


登录 词 中 ， 


有 


Java 


较 高 


29 


识 


MA 


别 


的 词 频 、 


疆 晶 


包含 | Java” 这 是 因为 “人 和 


-个 


在 此 行业 语 料 中 共 现 次 数 较 高 ， 导 至 “学习 Java” 


互信 息 、 邻 接 焙 。 本 文 方法 不 仅 充 分 利用 了 词 
频 、 互 信息 、 邻 接 业 等 统计 特征 ， 同 时 还 结合 了 扩展 规则 ， 扩 


的 总 结 ， 中 文 词 通 
中 文 词组 合成 复合 词 ， 而 英文 词 可 以 和 中 文 词 、 数 字 、 
组 合成 有 意义 的 复合 词 。 根 据 扩展 规则 ， 可 以 避免 


d Java” 这 样 无 意义 组 合 的 产生 ， 在 


展 规 则 源 于 对 各 行业 领域 未 登录 词 构 词 特点 
常 只 和 

特殊 符号 等 

类 似 “学 习 

了 未 登录 词 识别 效果 。 


定 程度 上 提高 
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4.3 ”通用 领域 未 登录 词 识别 对 比 
微 博 履 盖 内 容 较 广 ， 属 于 通用 领域 数据 。 从 COAE2014 提 
供 的 数据 中 选取 5 000 条 微 博 作为 实验 数据 ,分别 采用 文献 [4,5]、 
本 文 方法 识别 其 中 的 未 登录 词 。 由 于 难以 标注 微 博 中 未 登录 词 ， 
故 仅 以 准确 率 作为 实验 结果 的 评价 标准 ,实验 结果 如 表 9 所 示 。 
表 9 通用 领域 未 登录 词 识 别 准确 率 (%) 对 比 


方法 识别 个 数 正确 个 数 准确 率 
文献 [4] 404 254 62.87 
文献 [5] 496 304 61.29 

本 文 方法 469 336 71.64 


实验 结果 表明 ， 本 文 方法 在 识别 微 博 未 登录 词 中 取得 了 较 
好 效果 ， 其 准确 率 高 于 文献 [4,5] 方 法 。 


本 文 对 行业 领域 未 登录 词 识 别 方法 进行 研究 ， 通 过 网 络 仆 
EH 技术 息 取 各 行业 领域 招聘 职位 ， 在 分 析 行 业 领 域 未 登录 词 构 
词 特点 的 基础 上 ， 制 定 扩展 规则 ， 根 据 扩展 规则 对 分 词 项 进行 


Nt 


扩展 得 到 复合 词 ， 再 综合 词 频 、 互 信息 、 邻 接 炳 等 统计 特征 判 
定 复 合 词 是 否 为 未 登录 词 。 在 6 个 行业 领域 以 及 通用 领域 进行 
未 登录 词 识别 实验 ， 本 文 方法 取得 了 较 好 的 准确 率 、 召 回 率 和 


F 值 ， 说 明 本 文 方法 是 有 效 的 ， 具 有 较 好 的 移植 性 。 由 于 本 文 
方法 根据 统计 特征 值 是 否 均 大 于 阔 值 来 判断 复合 词 是 否 为 未 登 
录 词 ， 判 断 条 件 过 于 苛刻 ， 因 此 无 法 识别 出 部 分 统计 特征 值 大 
于 阔 值 的 未 登录 词 ， 例 如 ， 未 能 识别 出 词 频 、 互 信息 和 左 邻接 
均 大 于 闵 值 但 右 邻 接 炉 低 于 阔 值 的 未 登录 词 。 今 后 将 针对 这 
问题 进行 改进 ， 进 一 步 提高 未 登录 词 识别 效果 。 
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